De trazas de razonamiento a módulos reutilizables: generalización composicional La combinación de SFT y RL permite a los LLMs descomponer trazas en módulos reutilizables y logra generalización composicional. Descubre el protocolo efectivo. 2026-06-17 · 2 min